Loading...
机构名称:
¥ 1.0

为了确保在实际系统中加固学习的有用性(RL),确保它们对噪声和对抗性攻击至关重要。在对抗RL中,外部攻击者有能力操纵受害者与环境的互动。我们研究了整个在线操纵攻击,其中包括(i)国家攻击,(ii)观察攻击(这是对状态的概括),(iii)行动攻击和(iv)奖励攻击。我们表明了攻击者设计的隐形攻击问题,该攻击最大化了其自身的预期奖励,通常与最小化受害者的价值相对应,这是由马尔可夫·德克尼(Markov DeSision)过程(MDP)捕获的,我们称之为元MDP,因为它不是真实的环境,而是通过攻击互动所带来的更高级别的环境。我们表明,攻击者可以通过在多项式时间进行计划或使用Standard RL技术进行多项式样本复杂性来得出最佳攻击。我们认为,可以将受害者的最佳防御政策计算为对Stochastic Stackelberg游戏的解决方案,可以将其进一步简化为基于部分的基于转弯的随机游戏(POTBSG)。攻击者和受害者都不会从各自的最佳政策中受益,因此这种解决方案确实很健壮。尽管防御问题是NP-HARD,但我们表明在许多情况下,可以在多项式时间(样本复杂性)中计算(学习)最佳的马尔可夫防御。

arxiv:2312.00198V2 [CS.LG] 2024年6月17日

arxiv:2312.00198V2 [CS.LG] 2024年6月17日PDF文件第1页

arxiv:2312.00198V2 [CS.LG] 2024年6月17日PDF文件第2页

arxiv:2312.00198V2 [CS.LG] 2024年6月17日PDF文件第3页

arxiv:2312.00198V2 [CS.LG] 2024年6月17日PDF文件第4页

arxiv:2312.00198V2 [CS.LG] 2024年6月17日PDF文件第5页

相关文件推荐